Google Cloud Next ’24 の振り返り勉強会で AI を支える裏側の機能について話しました #GoogleCloudNext

Next '24 の振り返り勉強会で生成 AI 「じゃない方」を話してきました。

Google Cloud Next ’24

#Google Cloud (GCP)

#Google Cloud Storage

Guri / Hajime Oguri

2024.04.19

ウィスキー、シガー、パイプをこよなく愛する大栗です。

4月17日に Google Cloud Next '24 の振り返り勉強会である【4/17(水)ハイブリッド】クラスメソッドGoogle Cloud Next ’24ふり返り勉強会に登壇してきたので、その内容をブログにまとめます。

Google Cloud の AI を支える裏側のインフラを垣間見る！

Google Cloud Next '24 の Opening Keynote では生成 AI に関する発表が大半だったのですが、それを支える裏方の発表に目を向けてみました。裏方だと思う発表には以下のようなものがあります。

コンピュート
- TPU v5p
- Axion
GPU
- A3 Mega VMs (NVIDIA H100)
- GB200 NVL72
ストレージ機能
- Cloud Storage Fuse Caching
- Parallelstore Caching
- Hyperdisk ML

Expo 会場では実際にチップやハードウェアが展示されてました。

Google Axion

TPU / Cloud GPU / GDC

またストレージ機能に関するセッションがありました。

AI データパイプラインでは、データプレパレーション、トレーニング、推論にストレージの課題があります。

ストレージに関する課題

その課題を解決するために、様々な機能を発表しています。

Cloud Storage Anywhere Cache：ゾーンごとのキャッシュで Cloud Storage のスループットを向上させる
Cloud Storage FUSE local cache：I/O のリード高速化
Accelerated Dataloader：Pytorch で GCS からデータを高速にロードする
Parallelstore：DAOS の並列ファイルシステム
Hyperdisk ML：AI に最適化されたブロックストレージ

医療画像を使用した病理学の例では、以下のように開発中、トレーニング/チューニング中、更に大規模なトレーニング/チューニング中で、使用するサービスを使い分けて高速化や TCO の抑制を実現できています。

医療画像を使用した病理学での例

顧客事例としてウーブン・バイ・トヨタの方が登壇されて、Google Cloud のストレージサービスの活用について話されました。

コスト効率や GPU の確保のため AI プラットフォームをマルチクラウドで行っていますが、以前のクラウドトレーニングソリューションでは、とあるクラウドベンダーが提供する Lustre　サービスを利用していました。利用規模が大きくなるに連れ、多額の費用が発生し、ワークロードの増加によりデータ管理が難しくなってきました。

ウーブン・バイ・トヨタでの問題点

GPU の可用性確保のためマルチクラウド化を行い Google Cloud を使用しました。GKE で CSI ドライバを導入して Cloud Storage をマウントしましたが、Lustre を使用していないにも関わらず十分なパフォーマンスを発揮しました。そのためトレーニング費用を 40% 節約でき、データのコピーが費用になり管理の手間も低減しています。

Cloud Storage による解決

さらにプレビューの Cloud Storage FUSE Anywhere Cache を試すと 2回目のトレーニングでは 33% 高速になりました。

Google Cloud 全体を裏側で支える機能

Google のデータセンターを支える Titanium に関するセッションもありました。

Google のデータセンターは、ネットワークを Jupiter、リソース管理を Borg、ストレージを Colossus が支えています。

Google のデータセンターのイノベーションを支える

これらを更に進めるために Titanium があります。Titan セキュリティ、スケーラブルなファブリック、階層的オフロードを Titanium で実現しています。

Titanium の技術的概要

Titan は Google サーバーの信頼の基点となっており、オンホストアダプターはファブリックを通したセキュアなコミュニケーションを支えます。新しい Arm CPU である Google Axion も Titanium に対応していますし、ハードウェアメンテナンス時に VM をライブマイグレーションしてサービスを停止させずにメンテナンスを行うなど、様々な面で役に立っています。